خوشه بندی موجودیت ها در داده های پیوندی

thesis
abstract

وب معنایی شامل قرار دادن داده ها روی وب و ساختن ارتباطات به گونه ای است که انسان و ماشین بتوانند محتوای وب داده را کاوش نمایند. هدف وب معنایی افزایش توانایی ماشین ها در دسترسی به منابع موجود در وب، پردازش و بکارگیری آن ها می باشد. با توجه به رشد گسترده ی داده های پیوندی و افزایش مجموعه داده ها در چند سال اخیر، نیاز به ابزاری برای کشف پیوند در مقیاس وسیع احساس می شود. ابزارهای کنونی برای کشف پیوند مجبور به مقایسه ی تمامی موجودیت ها در مجموعه داده ها هستند. با خوشه بندی موجودیت ها، می توان قبل از ایجاد پیوند و بر اساس نوع پیوند تعداد مقایسه ها بین موجودیت ها را کاهش داد. یکی از مهم ترین اتصالات معنادار در وب داده، شناسایی و اتصال موجودیت هایی است که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند. در این تحقیق یک مدل به منظور شناسایی وایجاد خوشه هایی با موجودیت های همانند در وب داده ارائه شده است. مدل ارائه شده قابل بکارگیری روی مجموعه داده ها با دامنه های متفاوت است. این روش می تواند به عنوان یک مولفه در ابزارهای کشف پیوند مانند ابزار silk استفاده شده و سبب بهبود پبچیدگی زمانی وافزایش دقت کشف پیوند شود. مدل پیشنهادی دارای دو ماژول اصلی است: 1. ماژول خوشه بندی ابتدایی 2. ماژول شکستن ماژول خوشه بندی ابتدایی دارای سه فاز اصلی پیش پردازش، توابع شباهت و انتخاب مراکز است. مدل پیشنهادی با تعریف توابع شباهت متفاوت، ویژگی ها با انواع مختلف را در نظر می گیرد. در ماژول شکستن؛ بدترین خوشه شناسایی شده و به عنوان کاندید برای شکسته شدن در نظر گرفته می شود. مراحل کشف بدترین خوشه و شکسته شدن تا رسیدن به تعداد خوشه ی بهینه ادامه پیدا می کند. مدل پیشنهادی با استفاده از زبان برنامه نویس جاوا پیاده سازی شد و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور خوشه بندی فیلم های همانند و دو مجموعه داده linkedmdb و linkedgeodata به منظور خوشه بندی شهرهای همانند مورد ارزیابی قرار گرفت. پس از مقایسه نتایج بدست آمده با کارهای قبلی مشابه، مشخص شد مدل پیشنهادی دارای پیچیدگی زمان کمتر، بدون از دست دادن پیوندها و دقت بالاست.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

نحوه خوشه بندی آماری داده های شکل

اخیرا به کارگیری ابزارهای آمار چندمتغیره برای تحلیل داده هایی که به صورت هندسی تصادفی هستند مورد اقبال محققین علوم کاربردی قرار گرفته است. آمارشکل به عنوان شاخه جدیدی از هندسه تصادفی شامل مجموعه ای از چنین داده هایی است. با این حال، چون چنین داده هایی ماهیت غیراقلیدسی دارند نحوه تطبیق ابزارهای مرسوم چندمتغیره برای تحلیل آماری مناسب آنها تا حدودی واضح نیست. در این مقاله نحوه خوشه بندی داده های آ...

full text

بهبود روش تحلیل پوششی داده ها به منظور خوشه بندی مشتریان اعتباری بانک ها

رقابت بین مدیران سازمان های صنعتی و خدماتی برای تامین نیازهای مالی و اعتباری خود از طریق دریافت تسهیلات بانکی به صورت روزانه در حال افزایش است. از طرف دیگر منابع مالی و اعتباری بانک‌ها و موسسات مالی برای ارائه تسهیلات به متقاضیان محدود می‌باشد. بر این اساس تخصیص بهینه منابع محدود مالی با هدف حداکثر نمودن ارزش سرمایه گذاری برای آنها یک ضرورت می-باشد. در این تحقیق پس از شناسایی معیارهای اعتباردهی...

full text

خوشه بندی خودرو سازان بر اساس تابع تولید اقتصادی با استفاده از تحلیل پوششی داده ها

  خوشه بندی به کمک تحلیل پوششی داده ها(DEA) شناسایی روابط پنهان بین عوامل ورودی و خورجی واحدهای تصمیم گیری در تعیین تابع تولید آنهاست.در این مقاله به کمک خوشه بندی بر اساسDEA توابع تولید واحدهای تصمیم گیری صنایع خودرو سازی(از جمله سایپا) به صورت تفکیک شده مشخص می شود.تعیین توابع تولید خودروسازان و استفاده از انها در تفکیک صنایع مشابه با قابلیت در نظر گرفتن همزمان چندین عامل ورودی و خروجی از مز...

full text

تشخیص آسیب دیدگی در پل های کابلی با استفاده از آنالیز دامنه فرکانس و خوشه بندی داده ها

پل های کابلی از جمله شریان های حیاتی با اهمیت زیاد هستند که همه ساله هزینه های بالایی صرف تعمیر و نگهداری آنها می شود. پایش سلامت این پل ها می تواند از خسارت های مالی و جانی نامطلوب بکاهد. در این مقاله یک روش پایش سلامت پل های کابلی بر اساس پردازش سیگنال و خوشه بندی داده ها ارائه شده است. از آنجا که دقت روش پردازش سیگنال می تواند به شدت بر دقت شناسایی خسارت تاثیر گذار باشد، در بخش اول مقاله، اب...

full text

تحلیل داده های بیماران دیابتی در راستای خوشه بندی و تجویز دارو براساس الگوریتم پیشنهادی

مقدمه: دیابت یک اختلال سوخت و سازی در بدن است که توانایی تولید هورمون انسولین در بدن از بین می‌رود . هدف کلی از انجام پژوهش حاضر کشف دانش نهفته در داده­­های بیماران دیابتی است، که می­تواند به پزشکان در خوشه­بندی بیماران جدید و تجویز داروی مناسب مطابق هر خوشه کمک نماید. روش کار: در این مقاله از الگوریتم MR-VDBSCAN استفاده شده است. پیاده­سازی این الگوریتم د...

full text

رتبه بندی موجودیت در وب داده

امروزه، موتورهای جستجو به یکی از برنامه های کاربردی بسیار مهمِ وب تبدیل شده اند که هدف آن ها کمک به کاربر در جهت یافتن اطلاعات است. موتورهای جستجو همچون گوگل و یاهو کلمات کلیدی کاربر را دریافت می کنند و در صفحات وب بر اساس الگوریتم های از قبل تعریف شده به دنبال کلمات کلیدی وارد شده می گردند. سپس صفحات بازیابی شده را بر اساس الگوریتم رتبه بندی، مرتب و به کاربر نشان می دهند. با ظهور فناوری وب مع...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده برق و کامپیوتر

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023